就3D成像速度和系统成本而言,单摄像机系统投射单频模式是所有提议的条纹投影概要仪(FPP)系统中的理想选择。该系统需要具有强大的空间相解开(SPU)算法。但是,在复杂场景中,强大的SPU仍然是一个挑战。质量引导的SPU算法需要更有效的方法来识别相位图中不可靠的点,然后再拆卸。端到端深度学习SPU方法面临通用性和解释性问题。本文提出了一种混合方法,该方法结合了FPP中强大的SPU的深度学习和传统的路径跟踪。该混合型SPU方案比传统的质量引导的SPU方法表现出更好的鲁棒性,比端到端深度学习方案更好的解释性以及对看不见的数据的通用性。在多个照明条件和多个FPP系统的真实数据集上进行的实验,图像分辨率不同,条纹的数量,边缘方向和光学波长验证了所提出方法的有效性。
translated by 谷歌翻译
本文研究了未开发的任务点云突出对象检测(SOD)。与图像的SOD不同,我们发现点云的注意力转移可能会引起显着冲突,即矛盾的对象属于显着性和非偏好类别。为了避免此问题,我们提出了一个新颖的观点观点,对显着物体进行了合理的反映,以合理地反映出点云场景中最引人注目的对象。按照此公式,我们介绍了PCSOD,这是针对点云SOD提出的第一个数据集,该数据集由2,872个内部/室外3D视图组成。我们的数据集中的样本标记为层次注释,例如超级/子类,边界框和分割图,该图赋予了我们数据集的出色概括性和广泛的适用性,以验证各种猜想。为了证明我们解决方案的可行性,我们进一步贡献了基线模型和基准测试五个代表性模型,以进行全面比较。所提出的模型可以有效地分析检测显着物体的不规则和无序点。由于合并了任务范围的设计,我们的方法显示出比其他基线的可见优势,从而产生了更令人满意的结果。广泛的实验和讨论揭示了该研究领域的有希望的潜力,为进一步的研究铺平了道路。
translated by 谷歌翻译
腹部器官分割具有许多重要的临床应用,例如器官定量,手术计划和疾病诊断。但是,从CT扫描中手动注释器官是耗时且劳动密集型的。半监督的学习表明,通过从大量未标记的图像和有限的标签样本中学习来减轻这一挑战的潜力。在这项工作中,我们遵循自我训练策略,并使用CNN和Transformer使用混合体系结构(PHTRAN),以生成精确的伪标签。之后,我们将标签数据一起介绍给具有轻量级PHTRAN的两阶段分割框架,以提高模型的性能和概括能力,同时保持效率。 Flare2022验证集的实验表明,我们的方法可实现出色的分割性能以及快速和低资源模型的推断。平均DSC和HSD分别为0.8956和0.9316。在我们的开发环境下,平均推理时间为18.62 s,平均最大GPU存储器为1995.04 MB,GPU内存时间曲线下的面积和CPU利用时间曲线下的平均面积为23196.84和319.67。
translated by 谷歌翻译
我们展示了一个简单的无监督掩蔽目标可以在抽象多文件新闻摘要上接近受监督性能。我们的方法列举了最先进的神经摘要模型,以预测相对于多文件组的最高词汇中心的蒙面输出源文档。在对多新闻数据集的实验中,我们蒙版的培训目标会产生一个系统,优势超过无监督的方法,并且在人类评估中超越了最佳监督方法,而无需访问任何地面真实的摘要。此外,我们评估了词汇中心的不同措施,灵感来自过去的采取摘要,影响最终表现。
translated by 谷歌翻译
This paper presents a pre-training technique called query-as-context that uses query prediction to improve dense retrieval. Previous research has applied query prediction to document expansion in order to alleviate the problem of lexical mismatch in sparse retrieval. However, query prediction has not yet been studied in the context of dense retrieval. Query-as-context pre-training assumes that the predicted query is a special context for the document and uses contrastive learning or contextual masked auto-encoding learning to compress the document and query into dense vectors. The technique is evaluated on large-scale passage retrieval benchmarks and shows considerable improvements compared to existing strong baselines such as coCondenser and CoT-MAE, demonstrating its effectiveness. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
translated by 谷歌翻译
We study grammar induction with mildly context-sensitive grammars for unsupervised discontinuous parsing. Using the probabilistic linear context-free rewriting system (LCFRS) formalism, our approach fixes the rule structure in advance and focuses on parameter learning with maximum likelihood. To reduce the computational complexity of both parsing and parameter estimation, we restrict the grammar formalism to LCFRS-2 (i.e., binary LCFRS with fan-out two) and further discard rules that require O(n^6) time to parse, reducing inference to O(n^5). We find that using a large number of nonterminals is beneficial and thus make use of tensor decomposition-based rank-space dynamic programming with an embedding-based parameterization of rule probabilities to scale up the number of nonterminals. Experiments on German and Dutch show that our approach is able to induce linguistically meaningful trees with continuous and discontinuous structures
translated by 谷歌翻译
Monocular depth estimation has been actively studied in fields such as robot vision, autonomous driving, and 3D scene understanding. Given a sequence of color images, unsupervised learning methods based on the framework of Structure-From-Motion (SfM) simultaneously predict depth and camera relative pose. However, dynamically moving objects in the scene violate the static world assumption, resulting in inaccurate depths of dynamic objects. In this work, we propose a new method to address such dynamic object movements through monocular 3D object detection. Specifically, we first detect 3D objects in the images and build the per-pixel correspondence of the dynamic pixels with the detected object pose while leaving the static pixels corresponding to the rigid background to be modeled with camera motion. In this way, the depth of every pixel can be learned via a meaningful geometry model. Besides, objects are detected as cuboids with absolute scale, which is used to eliminate the scale ambiguity problem inherent in monocular vision. Experiments on the KITTI depth dataset show that our method achieves State-of-The-Art performance for depth estimation. Furthermore, joint training of depth, camera motion and object pose also improves monocular 3D object detection performance. To the best of our knowledge, this is the first work that allows a monocular 3D object detection network to be fine-tuned in a self-supervised manner.
translated by 谷歌翻译
密集的段落检索旨在根据查询和段落的密集表示(即矢量)从大型语料库中检索查询的相关段落。最近的研究探索了改善预训练的语言模型,以提高密集的检索性能。本文提出了COT-MAE(上下文掩盖自动编码器),这是一种简单而有效的生成性预训练方法,可用于密集通道检索。 COT-MAE采用了不对称的编码器架构,该体系结构学会通过自我监督和上下文监督的掩盖自动编码来将句子语义压缩到密集的矢量中。精确,自我监督的掩盖自动编码学会学会为文本跨度内的令牌的语义建模,并学习上下文监督的蒙版自动编码学学习以建模文本跨度之间的语义相关性。我们对大规模通道检索基准进行实验,并显示出对强基础的大量改进,证明了COT-MAE的效率很高。
translated by 谷歌翻译
对话(ERC)任务中的情感识别旨在预测对话中话语的情感标签。由于说话者之间的依赖性是复杂而动态的,这包括言论和言论者间的依赖性,因此说话者特定信息的建模是ERC中的至关重要的作用。尽管现有的研究人员提出了各种说话者互动建模的方法,但他们不能共同探索动态的言论和言论者的依赖性,从而导致对上下文的理解不足并进一步阻碍情绪预测。为此,我们设计了一种新颖的扬声器建模方案,该方案以动态方式共同探索言论和言论者的依赖性。此外,我们为ERC提出了一个演讲者引导的编码编码器(SGED)框架,该框架完全利用了说话者信息来解码情感。我们使用不同的现有方法作为我们框架的对话上下文编码器,显示了提出的框架的高扩展性和灵活性。实验结果证明了SGED的优势和有效性。
translated by 谷歌翻译
情绪原因对提取(ECPE)任务旨在从文档中提取情绪和原因。我们观察到,在典型的ECPE数据集中,情绪和原因的相对距离分布极为不平衡。现有方法设置了一个固定的大小窗口,以捕获相邻子句之间的关系。但是,他们忽略了遥远条款之间的有效语义联系,从而导致对位置不敏感数据的概括能力差。为了减轻问题,我们提出了一种新型的多晶格语义意识图模型(MGSAG),以共同结合细粒度和粗粒语义特征,而无需距离限制。特别是,我们首先探讨从子句和从文档中提取的关键字之间的语义依赖性,这些文档传达了细颗粒的语义特征,从而获得了关键字增强子句表示。此外,还建立了子句图,以模拟条款之间的粗粒语义关系。实验结果表明,MGSAG超过了现有的最新ECPE模型。特别是,MGSAG在不敏感数据的条件下大大优于其他模型。
translated by 谷歌翻译